Harness Engineering: C端AIGC内容生产自优化实践

核心观点

蚂蚁保险"保险快查"深度解读页面生成系统（DIPG）的完整工程实践。核心架构翻转：C端AIGC不应把"实时生成给用户"作为默认假设，默认应是"离线生成→Harness把关→持久化产物给用户"，实时只作兜底。

DIPG 通过三个 Agent（Host/Research/Verify）组成的 LangGraph 嵌套结构，实现了"生成→校验→精准修正→再校验"的闭环。只有通过 Verify Agent 的 HTML 才刷入 DB 暴露给用户。同时高频错误模式回灌 Research Agent prompt，形成持续自优化的三级 Harness 嵌套。

为什么不能实时直出

时延扛不住：Agentic 检索+生成几十秒，C端用户等不起
质量扛不住：LLM 生成 HTML 两类致命错误——渲染类（孤儿闭合标签让页面塌）和幻觉类（无中生有数据让用户读到假信息）

C端AIGC交付的本质要求：用户点开那一刻看到的 HTML 必须是已经被校验过的。

两条线上链路

离线链路（主路径）：Host Agent 编排 Research→Verify→修正→再Verify 闭环，合格 HTML 刷入 DB，按品开启暴露给 C 端
实时链路（兜底）：只跑一次 Research Agent，无 Verify，不修正。仅对未开启品兜底

两条链路的 Research Agent 完全同源——离线改进自动传导到实时。

三个Agent分工

Agent	职责	调用频率
Host Agent	总编排 + 按 fix_hint 精准修正 HTML	全程在线
Research Agent	从零生成整份 HTML（不参与修正）	只在第1轮被调一次
Verify Agent	程序化结构校验 + LLM 事实校验	每轮被调一次

关键设计选择：修正由 Host Agent 自己做（路B），而非再派 Research Agent 重新生成（路A）。原因：

Research Agent 只擅长从零生成，再派容易全盘重写
fix_hint 已精确定位，退化为轻量编辑，Host 调 edit_file 即可
避免信息损耗（fix_hint 序列化为自然语言再传给 Research）

Verify Agent 两层校验

程序化校验（structural_check）

纯 Python HTMLParser，毫秒级响应零假阳性：

rule5：标签完全闭合/无孤儿闭合标签/无交叉嵌套
rule1：